1. Cel pracy

Celem tej pracy jest zastosowanie różnych technik redukcji wielowymiarowośc oraz próba interpretacji uzyskanych wyników. Mam nadzieje, że uda mi się również wskazać metody najbardziej efektywne w kontekście moich danych. Do badania wykorzystam zbiór danych dotyczących różnych czynników wpływających na jakość życia w wybranych państwach świata. Zmienne wykorzystywane do analizy mają za zadanie reprezentować różne sfery życia takie jak zamożność, opieka zdrowotka, edukacja czy ochrona środowiska. Kraje które zostały dobrane są reprezentatywne dla każdego kontynentu oraz obejmują różne kręgi kulturowe, jakie możemy wyróżnić na kuli ziemskiej. Oto ich lista: Algeria, Argentina, Australia, Brazil, Canada, China, Colombia, Egypt, France, Germany, India, Indonesia, Japan, Mexico, New Zealand, Nigeria, Poland, Russia, Saudi Arabia, South Africa, Spain, Sweden, UK, USA. Wszystkie dane obejmują 2022 rok.

2. Wstępna analiza wykorzystywanych danych

Zmienne użyte w badaniu:

3. Opis danych

Dane:

Podstawowe statystyki:

Mean SD max min median cv
life_expectancy 77.65 5.52 85.20 65.50 78.35 0.07
gdp_per_capita 26670.12 22517.59 75269.00 2184.00 16374.00 0.84
unemploymnet_rate 7.20 6.30 33.50 2.60 5.68 0.88
crime_index 46.48 13.46 76.10 22.10 46.30 0.29
air_quality_index 27.08 19.98 96.00 6.00 25.00 0.74
gini_index 40.64 10.58 58.80 25.60 37.65 0.26
medical_doctors_per_10000 27.29 15.73 70.62 3.80 26.10 0.58
education_index 0.80 0.14 1.01 0.52 0.84 0.18

Tabela przestawia podstawowe statystyki opisowe odnoszące się do naszych zmiennych.

W przypadku średniej długości życia średnia równa 77,65 jest dość przybliżona do mediany która wynosi 78,35. Odchylenie standardowe wynosi 5,52 lat. Najkrótsze wartości oczekiwanej długości trwania życia można przypisać Nigerii, natomiast największe Japonii.

W przypadku PKB per capita średnia (26670,125) znacznie różni się od mediany (16374,00). Wpływ na to może mieć bardzo wysoka wartość PKB krajów najbogatszych w naszym zestawieniu. Najmniejszy dochód krajowy brutto per capita jest w Nigerii, a największy w USA.

W przypadku stopy bezrobocia znów średnia przewyższa medianę. Ma to związek z istniejącymi wartościami odstającymi. Największe wartości przypisujemy Japonii równe 2,6%, a największe RPA równe 33,5%. Odchylenie wynosi 6,3%, a współczynnikk zmienności 0,88.

Indeks przestępczości Ma stosunkowo równe wartości mediany i średniej. Odchylenie standardowe natomiast wynosi 13,46. Największą przestępczości odnotowuje się w Południowej Afryce, a najmniejszą w Japonii.

Indeks jakości powietrza również posiada przybliżone wartości średniej i mediany. Wyraźnie w oczy rzucają się państwa w których wartość indeksy jest największa np. Chiny (96).

Współczynnik Giniego również posiada przybliżoną wartość mediany i średniej. Do państw o największej nierówności społecznej należą: Nigeria (58,8) i Kolumbia (57,8), a najmniejsza nierówność szacowana jest w Niemczech (25,6).

Dwa ostatnie współczynniki mają natomiast bardzo przybliżoną wartość mediany i średniej, co świadczy o ich stosunkowo równym rozkładzie. Odchylenie standardowe w przypadku liczby lekarzy na 10 000 mieszkańcow wynosi 15,73, a przypadku indeksu edukacji 0,14.

Wykresy pudełkowe dla zmiennych:

Powyżej zostały zaprezentowane wykresy pudełkowe dla poszczególnych zmiennych.

Na pierwszym wykresie widzimy dane dotyczące przewidywanej długości życia. Jak łatwo można zauważyć różnica między medianą i pierwszym kwartylem a medianą i czwartym kwartylem jest dość podobna.

W kolejnym wykresie zobrazowana została wartość PKB per capita. Tutaj już mediana jest przybliżona zdecydowanie w stronę pierwszego kwartyla, co oznacza że państw ze wskaźnikiem PKB stosunkowo niskim jest zdecydowanie więcej niż ze wskaźnikiem stosunkowo wysokim.

Trzeci wykres to zobrazowanie stopy bezrobocia w wybranych krajach. Rozmiatr pudełka jest stosunkowo mały. Wynika to z faktu istnienia jedna wartość silnie odstająca od pozostałych. Jest to outlier, który może okazać się kłopotliwy w dalszych etapach analizy

Czwarty wykres odnoszący się do indexu przestępczości jest stosunkowo symetryczny. Odległość między pierwszym i trzecim kwartylem jest równa a mediana znajduję się pomiędzy nimi.

W przypadku indeksu jakości powietrza mamy do czynienia z mocno odstającymi wartościami w przypadku 3 krajów które wyraźnie przekraczają długość naszego pudełka. Te wartości również mogą być kłopotliwe w dalszych analizach. Poza tym mediana znajduje się blisko 3 kwartyla, co oznacza, że około 25% naszych państw posiada indeks jakości powietrza zbliżony do warotści 25.

W przypadku wykresu odnoszącego się do współczynnika Giniego możemy zauważyć stosunkowo dużą symetryczność danych. Mediana jest przesunięta w stronę pierwszego kwartyla co oznacza, że więcej wartości ma stosunkowo niski wskaźnik tego wsółczynnika.

Kolejnym wskaźnikiem jest liczba lekarzy przypadająca na 10 000 mieszkańców. Tu z kolei 50 % danych oscyluje w przedziale od ok 20 do 40 lekarzy. Można róznież zauwyażyć jedną wartość wyraźnie odstajaco od pozostałych.

Ostatnią z naszych zmiennych jest indeks edukacji. W tym przypadku dane są stosunkowo symetryczne. Mediana jest przesuniąta w strone górnego kwartyla, Co wiąże się z faktem, że więcej państw posiada więszką wartość wspólcznynika edukacji.

Skalowanie wielowymiarowe

Skalowanie wielowymiarowe jest eksploracyjną metodą SAD, która pozwala na wizualizację obiektów n-wymiarowych w przestrzeni m-wymiarowej (m<n). Polega ona na znalezieniu funkcji, która przekształca odległosci rzeczywiste na skalowane przy najmniejszej stracie informacji. Metoda ta dąży do rozmieszczenia obiektów jako punktów w przestrzeni n-wymiarowej, tak aby obiekty podobne do siebie znajdowały się bliżej. W naszej analizie użyejemy dwóch metod: klasycznego skalowania wielowymiarowego i metody skalowania Sammmona

Przed przystąpieniem do skalowania wielowymiarowego nasze dane standaryzujemy, ponieważ ich skala różni się zasadniczo. Natępnie obliczamy macierz odkległości.

Macierze odległości będziemy pokazywać dla skalowań w każdym wymiarze. Będą one jedynie pełniły funkcje poglądowe, gdyż ich interpretacja jest dużo bardziej skomplikowana i czasochłonna niż ma to miejsce w przypadku interpretacji gotowych wykresów.

Klasyczne skalowanie wielowymiarowe

Ideą klasycznego skalowania wielowymiarowego jest zmniejszenie wymiaru danych przy jak najmniejszym zniekształceniu prawdziwych odległości. Opiera się ona na odległościach euklidewsowych pomiędzy obiektami.Jest to liniowa metoda jednokrokowa.

Do oceny naszego skalowania będziemy wykorzystywać współczynnik STRESS, który jest pierwiastkiem z ilorazu sumy kwadratów różnic odlełości między obiektami przed i po skalowaniu przez sume kwadratów odległości między obiektami przed skalowaniem. Interpretacja współczynnika STRESS jest następująca:

Teraz dokonamy skalowania do odpowiednio jednego, dwóch i trzech wymiarów. Dla każdego skalowania będziemy również obliczać funkcję STRESS, która będzie oceniałą jakość naszego skalowania

Klasyczne skalowanie do jednego wymiaru

Macierz odległości po skalowaniu do jednego wymiaru:

Funckja STRESS dla skalowania do jednego wymiaru:

## [1] 0.4287655

Dokładnośc przekształcenia jest bardzo niska. Współczynnik STRESS wynosi, aż 42,88% co oznacza, że przekształcenie jest bardzo niedokładne. Będziemy musieli zatem spróbować przekształceń do wyższych wymiarów.

Klasyczne Skalowanie do dwóch wymiarów

Macierz odległości po skalowaniu do dwóch wymiarów wymiaru:

Funckja STRESS dla skalowania do dwóch wymiarów:

## [1] 0.2563087

Współczynnik STRESS wynosi 25,63%. Jest to nie satysfakconujaca wartość onzaczająca bardzo słabe dopasowanie.

Nasze dane na wykresie 2D będą wyglądać następująco:

Klasyczne skalowanie do trzech wymiarów

Macierz odległości po skalowaniu do trzech wymiarów wymiarów wymiaru:

Funckja STRESS dla skalowania do trzech wymiarów:

## [1] 0.1644685

Wartość współczynnika STRESS znacznie spadła. Wynik ten ozacza średnią dokładność naszego skalowania.

Nasze dane na wykresie 3D będą wyglądać następująco:

Choć dokładność skalowania jest co najmniej średnia, jesteśmy w stanie zauważyć pewne prawidłowości. Państwa o dość podobnych charakterystykach przybliżyły się do siebie i skumulowały w “grupy”. Wynika to z z samej mechaniki działania tej metody, która dąży do zminimalizowania odległości pomiędzy obiektami, które są do siebie podobne.

Metoda skalowania Sammona

Jest to nielioniowa, iteracyjna procedura skalowania. Do jej użycia również wykorzystywane są odległości metryczne. Skalowanie Sammona w odróżnieniu od klasycznego skalowania skupia się na zachowaniu lokalnych struktur danych, dając większą wagę odległościom krótszym.

Tutaj również dokonamy skalowania do odpowiednio jednego, dwóch i trzech wymiarów. Dla każdego skalowania będziemy tekże obliczać funkcję STRESS, która będzie oceniałą jakość naszego skalowania

Skalowanie Sammona dla jednego wymiaru:

Macierz odległości po skalowaniu do jednego wymiaru:

Funkcja STRESS dla skalowania jednowymiarowego skalowania Sammona:

## [1] 0.1381932

Jak możemy łatwo zauważyć, już dla jednego wymiary wartość funckji STRESS jest znacznie mniejsza od tej samej wartości w przypadku klasycznego skalowania.

Skalowanie Sammona dla dwóch wymiarów

Funkcja STRESS dla skalowania jednowymiarowego skalowania Sammona:

## [1] 0.03365582

Wpółczynnik STRESS osiąga już zadowalający poziom. Wartość 3% świadczy o dobrym dopasowaniu.

Po skalowaniu 2D nasze dane prezentują się następująco:

Skalowanie dwuwymiarowe daje już całkiem satysfakcjonujące wyniki. Po prawej stronie naszego wykresu znajdują się państwa wysoko rozwinięte ze względną “wysoką jakością życia”. Są one dość mocno zagęszczone. Po lewej natomiast państwa drugiego i trzeciego świata, gdzie różnica w jakości życia jest znaczna. Możemy zatem wywnioskować, że oczekiwane przybliżanie do siebie państw po podobnych charakterystykach działa tutaj prawidłowo.

Skalowanie Sammona dla 3 wymiarów

Funkcja STRESS dla trzywymiarowego skalowania Sammona:

## [1] 0.01099022

W przypadku trzywymiarowego skalowania Sammona wartość współczynnika wynosi 1,1%. Możemy uznać to za bardzo dobry wynik i skalowanie daje dobre dopasowanie.

Po skalowaniu 3D nasze dane prezentują się następująco:

W finalnej wersji naszego skalowania możemy zauważyć wyraźny podział na grupy państw o podobnej charakterystyce. Państwa bogate i o wysokim standardzie życia zbliżyły się do siebie. Podobnie jak kraje 3 świata i kraje Amertyki Południowej. Skalowanie spowodowało również znaczen oddalenie się od reszty państw, gdzie wartości różniły się znacznie od pozostałych tak jak np w przypadku RPA czy Indi.

Podsumowanie i wnioski

Finalnie najbardziej satysfakconujące wyniki uzyskaliżmy dzięki skalowaniu nieliniwoym Sammona. Wartość współczynnika STRESS dla tej metody przy uwzględnieniu 3 wymiarów była bardzo zadowalająca. Można było dzięki niej wnioskować, że nasze trzy “sztucznie” zyskane zamiennnie bardzo wiernie przekazują informajce jakie zwierały nasze początkowe zmienne użyte w analizie.

Warta zaznaczenia jest ogromna różnica jakości dopasowań między klasyczną metodą skalownia, a skalowaniem Sammona.Jak bardzo obie metody różniły się od siebie możemy sie przekonac poprzez analize powyższego wykresu. Zasadniczo dla każego wymiaru różnica w funkcji dopasowania była ogromna. Wynika to z samej mechaniki działania obu metod. Klasyczne MDS stara się zachować ogólną strukturę odległości, podczas gdy metoda Sammona koncentruje się bardziej na zachowaniu odległości między podobnymi obiektami. Ważne jest tu też sama funkcja STRESS, która w przypadku metody Sammona stosuję bardziej złożoną nieliniową metodę, która róznicuje odległości. W konkeście danych użytych do tej analizy i samej ich charakterystyki metoda Sammona dzięki swoim walorom okazała się dawać dużo bardziej wiarygodne wyniki.